检索结果

Select

1. 数据库中不等式查询语句的resilience计算

林杰, 覃飙, 覃雄派

计算机应用 2018, 38 (7): 1893-1897. DOI: 10.11772/j.issn.1001-9081.2018010078

摘要（640）

PDF （941KB）（267）

针对数据库中不等式连接查询的因果关系问题，引入并实现了resilience计算，并且为了降低其在路径类型不等式连接查询中计算的时间复杂度，提出了求解resilience的动态规划（DPResi）算法。首先，根据路径类型不等式连接查询的特点及最大流最小割原理，实现了多项式时间复杂度的Min-Cut算法；然后通过将带有不等式布尔连接查询语句的溯源表达式编辑为溯源图，进而将resilience求解问题转换为溯源图中最短距离的计算问题，并结合溯源图的包含关系与最优子结构性质，运用动态规划的思想实现了线性时间复杂度的DPResi算法。在TPC-H数据集上进行了大量实验，实验结果表明，与Min-Cut算法相比，DPResi算法极大地提高了resilience计算的效率，并具有较好的扩展性。

参考文献 | 相关文章 | 多维度评价

Select

2. 大数据分析的应用案例——投资模型的稳健性

覃雄派, 陈跃国, 王邦国

计算机应用 2017, 37 (3): 660-667. DOI: 10.11772/j.issn.1001-9081.2017.03.660

摘要（535）

PDF （1417KB）（489）

交易模型的稳健性，指的是该模型的利润率曲线的波动性较小，没有大起大落。针对一个基于支持向量回归（SVR）技术的算法交易模型的稳健性问题，提出了使用若干导出指标训练统一的交易模型的策略，以及投资组合多样化的方法。首先，介绍基于支持向量回归技术的算法交易模型；然后，基于常用指标，构造了若干导出指标，用于股票价格的短期预测。这些指标，刻画了近期价格运动的典型模式、超买/超卖市场状态，以及背离市场状态。对这些指标进行了规范化，用于训练交易模型，使得模型可以泛化到不同的股票；最后，设计了投资组合多样化方法。在投资组合里，各个股票之间的相关性，有时会导致较大的投资损失；因为具有较强相关关系的股票，其价格朝相同方向变化。如果交易模型预测的价格走势不正确，引起止损操作，那么这些具有较强相关关系的股票，将引发雪崩式的止损，于是导致损失加剧。把股票根据相似性聚类到不同类别，通过从不同聚类类别中选择若干股票来构成多样化的投资组合，其中，股票的相似性，通过交易模型在不同股票上近期的利润曲线的相似度进行计算。在900只股票10年的价格大数据上进行了实验，实验结果显示，交易模型能够获得超过定期存款的超额利润率，年化利润率为8.06%。交易模型的最大回撤由13.23%降为5.32%，夏普指数由81.23%提高到88.79%，交易模型的利润率曲线波动性降低，说明交易模型的稳健性获得了提高。

参考文献 | 相关文章 | 多维度评价

Select

3. 扩展知识图谱上的实体关系检索

王秋月, 覃雄派, 曹巍, 覃飙

计算机应用 2016, 36 (4): 985-991. DOI: 10.11772/j.issn.1001-9081.2016.04.0985

摘要（925）

PDF （1139KB）（673）

现有文本数据集上的实体搜索和自然语言查询方法无法处理需要将分散在不同文档中的信息碎片链接起来以满足有复杂实体关系的查询,而知识库上的查询虽然可以表示实体间的复杂关系,但由于知识库的异构性和不完全性,通常查全率较低。针对这些问题,提出使用文本数据集对知识库进行扩展,并设计相应的含文本短语的三元组模式查询以支持对知识库和文本数据的统一查询。在此基础上,设计并实现了查询放松机制和对结果元组的评分模型,并给出了高效的查询处理方法。使用YAGO、ClueWeb09和其上的FACC1数据集,在三个不同的查询测试集(实体检索、实体关系检索和复杂的实体关系查询)上与两个典型相关工作作了比较。实验结果显示,扩展知识图谱上使用查询放松规则的实体关系检索系统的检索效果大大超出了其他系统,具体地在三个查询测试集上,其平均正确率均值(MAP)比其他系统分别提升了27%、37%和64%以上。

参考文献 | 相关文章 | 多维度评价

Select

4. 大数据评测基准的研发现状与趋势

周晓云, 覃雄派, 王秋月

计算机应用 2015, 35 (4): 1137-1142. DOI: 10.11772/j.issn.1001-9081.2015.04.1137

摘要（459）

PDF （1039KB）（639）

工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。

参考文献 | 相关文章 | 多维度评价

Select

5. 基于熵相关系数的关联性自动判别方法——COCA

王珊曹巍覃雄派

计算机应用

摘要（2039）

PDF （800KB）（837）

数据库自管理、自调优中查询计划的自动优化是目前的关注热点。为保证优化器估值精度，用统计学方法，给出了一种基于熵相关系数的对字段关联性的自动判别的新算法——COCA。该算法有下列特点：（1）限制少，没有卡方检验的频数限制，卡方检验只有在列联表中至少有80%的格子频数大于5的情况下才可信；（2）结果多，卡方检验（CORDS）只判断字段之间是否有关联，新方法可计算字段之间双向的关联程度。实验表明，新方法更坚固，产生更多的统计信息，可以支持后面更高效、准确地建立直方图。